在没有人为干预的图像自动色彩上是在机器学习界的兴趣中的一个短暂的时间。分配颜色到图像是一个非常令人虐待的问题,因为它具有非常高的自由度的先天性;给定图像,通常没有单一的颜色组合是正确的。除了着色之外,图像重建中的另一个问题是单图像超分辨率,其旨在将低分辨率图像转换为更高的分辨率。该研究旨在通过专注于图像的非常特定的图像,即天文图像,并使用生成的对抗网络(GAN)来提供自动化方法。我们探索两种不同颜色空间,RGB和L * A *中各种型号的使用。我们使用传输学习,由于小数据集,使用预先训练的Reset-18作为骨干,即U-Net的编码器,进一步微调。该模型产生视觉上有吸引力的图像,其在原始图像中不存在的这些结果中呈现的高分辨率高分辨率,着色数据。我们通过使用所有通道的每个颜色空间中的距离度量(例如L1距离和L2距离)评估GAN来提供我们的结果,以提供比较分析。我们使用Frechet Inception距离(FID)将生成的图像的分布与实际图像的分布进行比较,以评估模型的性能。
translated by 谷歌翻译
The success of Deep Generative Models at high-resolution image generation has led to their extensive utilization for style editing of real images. Most existing methods work on the principle of inverting real images onto their latent space, followed by determining controllable directions. Both inversion of real images and determination of controllable latent directions are computationally expensive operations. Moreover, the determination of controllable latent directions requires additional human supervision. This work aims to explore the efficacy of mask-guided feature modulation in the latent space of a Deep Generative Model as a solution to these bottlenecks. To this end, we present the SemanticStyle Autoencoder (SSAE), a deep Generative Autoencoder model that leverages semantic mask-guided latent space manipulation for highly localized photorealistic style editing of real images. We present qualitative and quantitative results for the same and their analysis. This work shall serve as a guiding primer for future work.
translated by 谷歌翻译
安全是每个机器人平台的关键特性:任何控制政策始终遵守执行器限制,并避免与环境和人类发生冲突。在加强学习中,安全对于探索环境而不会造成任何损害更为基础。尽管有许多针对安全勘探问题的建议解决方案,但只有少数可以处理现实世界的复杂性。本文介绍了一种安全探索的新公式,用于强化各种机器人任务。我们的方法适用于广泛的机器人平台,即使在通过探索约束歧管的切线空间从数据中学到的复杂碰撞约束下也可以执行安全。我们提出的方法在模拟的高维和动态任务中实现了最先进的表现,同时避免与环境发生冲突。我们在Tiago ++机器人上展示了安全的现实部署,在操纵和人类机器人交互任务中取得了显着的性能。
translated by 谷歌翻译
随着越来越多的增强和虚拟现实应用程序的出现,旨在对人脸的图像进行有意义和控制的样式编辑,因此解析面部图像的任务的动力以生成准确而细粒度的语义细分映射超出以前。很少有解决此问题的最新技术(SOTA)方法通过将先验的面部结构或其他面部属性(例如表达和姿势)纳入其深层分类器架构中来做到这一点。我们在这项工作中的努力是消除SOTA多级面部分割模型所需的先验和复杂的预处理操作,该操作通过将此操作重新构架为在面部语义语义区域(ROIS)的下游任务后,作为下游任务后的下游任务(ROIS)。在生成自动编码器模型的潜在空间中。我们在Celebamask-HQ和Helen数据集上介绍了模型性能的结果。与其他SOTA作品相比,我们模型的编码潜在空间在语义ROI方面的分离明显更高。此外,它在公开可用的SOTA方面,可以实现13 \%的推理率和可比的精度,用于面部图像的语义分割的下游任务。
translated by 谷歌翻译
自主机器人应在现实世界中的动态环境中运行,并与人类在紧密的空间中合作。允许机器人离开结构化实验室和制造设置的关键组成部分是他们与周围世界的在线和实时碰撞评估的能力。基于距离的约束是使机器人计划行动并安全采取行动,保护人类及其硬件的基础。但是,不同的应用需要不同的距离分辨率,从而导致各种启发式方法测量距离场W.R.T.障碍物在计算上很昂贵,并阻碍了他们在动态障碍避免用例中的应用。我们提出了正则签名的距离距离(REDSDF),这是一个单个神经隐式函数,可以在任何规模上计算平滑距离场,并在高维歧管上具有细粒度的分辨率和像人类这样的明确物体,这要归功于我们的有效数据生成和A训练过程中简单的感应偏置。我们证明了我们的方法在共享工作区中的全身控制(WBC)和安全的人类机器人相互作用(HRI)中的代表性模拟任务中的有效性。最后,我们在使用移动操纵器机器人的HRI移交任务中提供了现实世界应用的概念证明。
translated by 谷歌翻译
移动操作(MM)系统是在非结构化现实世界环境中扮演个人助理角色的理想候选者。除其他挑战外,MM需要有效协调机器人的实施例,以执行需要移动性和操纵的任务。强化学习(RL)的承诺是将机器人具有自适应行为,但是大多数方法都需要大量的数据来学习有用的控制策略。在这项工作中,我们研究了机器人可及先验在参与者批判性RL方法中的整合,以加速学习和获取任务的MM学习。也就是说,我们考虑了最佳基础位置的问题以及是否激活ARM达到6D目标的后续决定。为此,我们设计了一种新型的混合RL方法,该方法可以共同处理离散和连续的动作,从而诉诸Gumbel-Softmax重新聚集化。接下来,我们使用来自经典方法的操作机器人工作区中的数据训练可及性。随后,我们得出了增强的混合RL(BHYRL),这是一种通过将其建模为残留近似器的总和来学习Q功能的新型算法。每当需要学习新任务时,我们都可以转移我们学到的残差并了解特定于任务的Q功能的组成部分,从而从先前的行为中维护任务结构。此外,我们发现将目标政策与先前的策略正规化产生更多的表达行为。我们评估了我们在达到难度增加和提取任务的模拟方面的方法,并显示了Bhyrl在基线方法上的卓越性能。最后,我们用Bhyrl零转移了我们学到的6D提取政策,以归功于我们的MM机器人Tiago ++。有关更多详细信息和代码发布,请参阅我们的项目网站:irosalab.com/rlmmbp
translated by 谷歌翻译
以互联网上的文件形式存储的信息量迅速增加。因此,它已成为以最佳方式组织和维护这些文件的必要性。文本分类算法研究文本中单词之间的复杂关系,并尝试解释文档的语义。这些算法在过去几年中已经显着发展。从简单的机器学习算法到基于变压器的架构有很多进展。然而,现有文献在不同的数据集上分析了不同的方法,从而难以比较机器学习算法的性能。在这项工作中,我们使用标准机器学习方法重新审视长文件分类。我们在六个标准文本分类数据集中从简单的天真贝叶斯到复杂伯爵的基准方法。我们在一系列长文档数据集中呈现了不同算法的详尽比较。我们重新延长了长篇文档分类是一个更简单的任务,甚至基本算法竞争地在大多数数据集上具有基于BERT的方法。基于BERT的模型在所有数据集上始终如一地执行,并且当计算成本不是一个问题时,可以盲目地用于文档分类任务。在浅模范的类别中,我们建议使用原始Bilstm + Max架构的用法,这些架构在所有数据集中体面效果。即使是更简单的手套+注意单词模型也可用于更简单的用例。在IMDB情绪数据集中清晰可见使用复杂模型的重要性,这是一个相对较难的任务。
translated by 谷歌翻译